#partición de recompensas

Optimización de políticas sin valor mediante partición de recompensas

Descubre RPO, un método que elimina la función de valor en optimización de preferencias. Más estable, diverso y con menos toxicidad que DRO y KTO. Ideal para alinear LLMs.

2026-06-02 · 1 min